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Аннотация 

Реализация  высокоскоростной  коммуникационной  сети  на  многих  задачах  в  значительной 
степени  определяет  реальную  производительность  суперкомпьютерной  системы.  Разработка 
эффективной  высокоскоростной  коммуникационной  сети  является  сложной  научно-технической 
задачей,  требующей  совместной  работы  высококвалифицированных  специалистов  из  многих 
областей.  В  докладе  рассказывается  об  основных  вопросах,  требующих  решения  при  разработ- 
ке  архитектуры  сети  и  программного  обеспечения.  Акцент  сделан  на  необходимости  принятия 
решений  по  многим  ключевым  параметрам,  включая  топологию  сети,  алгоритмы  маршрутиза¬ 
ции,  протоколы  передачи  данных,  поддерживаемые  модели  параллельного  программирования, 
форм-фактор  сетевых  адаптеров  и  кабелей  и  т.  д.  Также  в  докладе  кратко  описано  современное 
состояние  отрасли  разработки  высокоскоростных  сетей  для  суперкомпьютеров  и  сформулиро¬ 
ваны  некоторые  мировые  тенденции  в  данной  области. 


Введение 

Наблюдаемый  последние  десятилетия  неуклонный  рост  мощности  суперкомпьютерных  систем 
во  многом  обусловлен  постоянным  увеличением  числа  узлов,  процессоров,  ядер  и  внедрением  раз¬ 
личных  ускорителей,  при  этом  эффективность  использования  суперкомпьютерных  ресурсов  (па¬ 
мяти,  процессорного  времени,  ускорителей)  и  достигаемая  производительность  на  многих  задачах 
в  значительной  степени  определяются  реализацией  высокоскоростной  коммуникационной  сети,  ко¬ 
торая  обеспечивает  обмен  данными  и  синхронизацию  вычислительных  узлов. 

Наиболее  мощными  суперкомпьютерами  на  текущий  момент  (согласно  списку  ТорбОО,  июнь 
2013)  являются:  китайские  системы  ТіапЬе-2  и  ТіапЬе-іА,  японский  К  Сотриіег,  американские 
Сгау  Тііап,  ІВМ  Віие  Оепе/Сф  Все  эти  суперкомпьютеры  используют  собственные  уникальные 
(«заказные»)  коммуникационные  сети,  разрабатываемые  в  составе  этих  вычислительных  систем, 
и  доступные  только  совместно  с  ними.  Приобретение  подобных  машин  в  России  в  ряде  случаев 
затруднено,  а  зачастую  является  фактически  невозможным.  В  то  же  время  коммерчески  доступные 
сети  ІнйніВапсІ  и  ЕіФегпеІ  далеко  не  всегда  подходят  для  эффективной  реализации  систем  со  столь 
высокими  требованиями  по  масштабируемости,  надёжности  и  производительности.  В  связи  с  этим 
крайне  актуальным  является  вопрос  разработки  отечественной  высокоскоростной  сети,  сравнимой 
с  западными  «заказными»  аналогами. 

В  ОАО  «НИЦЭВТ»  с  2006-го  года  ведётся  разработка  коммуникационной  сети  «Ангара»  — 
отечественной  высокоскоростной  коммуникационной  сети  с  топологией  4Б-тор,  которая  сможет 
стать  основой  для  создания  отечественных  суперкомпьютеров  [1,  2].  В  2013  году,  став  результатом 
длительной  подготовительной  работы,  появилось  на  свет  первое  поколение  маршрутизаторов  сети 
«Ангара»  на  базе  СБИС  ЕС8430.  В  процессе  разработки  коммуникационной  сети  перед  инженерами 
встал  целый  ряд  вопросов,  требующих  решений,  и  предполагающих  расстановку  приоритетов  меж¬ 
ду  ценой,  производительностью,  эффективностью  энергопотребления  и  другими  требованиями,  во 
многом  конфликтующими  между  собой,  поскольку  часто  попытки  улучшения  одной  характеристи¬ 
ки  могут  приводить  к  ухудшению  другой. 

Далее  рассматриваются  основные  вопросы,  которые  решались  при  разработке  архитектуры  и 
программного  обеспечения  для  сети  «Ангара»,  даётся  обоснование  решений,  принятых  по  многим 
ключевым  вопросам,  включая  топологию  сети,  алгоритмы  маршрутизации,  протоколы  передачи 
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данных,  поддерживаемые  модели  параллельного  программирования,  форм-фактор  сетевых  адап¬ 
теров  и  кабелей  и  т.  д. 

1.  Высокоскоростные  сети 

Коммуникационная  сеть  состоит  из  узлов,  в  каждом  из  которых  есть  сетевой  адаптер,  соединен¬ 
ный  с  одним  или  несколькими  маршрутизаторами,  которые  в  свою  очередь  соединяются  между  со¬ 
бой  высокоскоростными  каналами  связи  (линками)  [1].  Структура  сети,  определяющая,  как  именно 
связаны  между  собой  узлы  системы,  задается  топологией  сети.  В  настоящее  время  распространены 
топологии  многомерный  тор,  Іаі  Ігее,  с1га§опйу. 

Архитектура  маршрутизатора  определяет  структуру  и  функциональность  блоков,  отвечающих 
за  передачу  данных  между  узлами  сети,  а  также  необходимые  свойства  протоколов  канального, 
сетевого  и  транспортного  уровней,  включая  алгоритмы  маршрутизации,  арбитража  и  управления 
потоком  данных.  Архитектура  сетевого  адаптера  определяет  структуру  и  функциональность  бло¬ 
ков,  отвечающих  за  взаимодействие  между  процессором,  памятью  и  сетью;  в  частности,  на  этом 
уровне  осуществляется  поддержка  МРІ-операций,  ШЭМА  (Кетозе  Бпесі  Метогу  Ассеаз  —  пря¬ 
мой  доступ  к  памяти  другого  узла  без  участия  его  процессора),  подтверждений  получения  другим 
узлом  пакета,  обработки  исключительных  ситуаций,  агрегации  пакетов. 

Для  оценки  производительности  коммуникационной  сети  чаще  всего  используются  три  харак¬ 
теристики:  пропускная  способность,  коммуникационная  задержка,  темп  выдачи  сообщений.  Для 
полноты  картины  данные  характеристики  измеряются  на  разных  видах  трафика,  например,  когда 
один  узел  рассылает  данные  всем  остальным,  либо,  наоборот,  все  узлы  шлют  данные  одному,  либо 
когда  все  узлы  посылают  данные  случайным  адресатам. 

Если  посмотреть  на  статистику  списка  Тор500,  то  можно  выяснить,  что  большинство  пред¬ 
ставленных  в  нём  систем  используют  коммерчески  доступные  сети  ІпішіВаіісІ  и  ЕіЪегпеІ.  Сеть 
ІийніВапсІ  широко  используется  для  построения  кластерных  систем  и  суперкомпьютеров.  Послед¬ 
нее  на  данный  момент  поколение  сети  ІіійпіВапсІ  —  ІийиіВапсі  РБК  —  было  представлено  в  июне 
2011  года.  Основным  количественным  улучшением  нового  поколения  является  увеличенная  про¬ 
пускная  способность  линков  —  до  14  Гбит/с.  Существующие  реализации  архитектуры  сети  Іпійпі- 
Вапсі  оптимизированы  под  топологию  Іаі  Ігее,  однако  последние  поколения  коммутаторов  и  марш¬ 
рутизаторов  поддерживают  топологию  многомерный  тор,  а  также  гибридную  топологию  из  Іаі  Ігее 
и  трёхмерного  тора.  Сеть  ЕіЪегпеІ  традиционно  занимает  нишу,  где  обмен  данными  между  узлами 
некритичен. 

В  отличие  от  коммерчески  доступных  сетей,  «заказные»  сети  занимают  гораздо  меньшую  долю 
рынка,  однако  именно  они  используются  в  наиболее  мощных  суперкомпьютерах. 

Китайский  суперкомпьютер  ТіапЬе-іА  состоит  из  7168  вычислительных  узлов,  объединенных 
сетью  АгсЬ  с  топологией  Іаі  Ігее.  Сеть  строится  из  16-портовых  маршрутизаторов,  односторон¬ 
няя  пропускная  способность  линка  —  8  ГБ/с,  задержка  —  1,57  мкс.  В  суперкомпьютере  ТіапЬе-2 
используется  сеть  ТН  Ехрге88-2  с  топологией  Іаі  Ігее.  На  верхнем  уровне  сети  используются  13 
576-портовых  коммутаторов  на  базе  специально  разработанного  чипа  ИКС,  агрегатная  пропускная 
способность  которого  составляет  2,56  Тбит/с.  Коммуникационная  задержка  для  этой  сети,  изме¬ 
ренная  на  сообщениях  размером  1  КБ  на  12000  узлах,  равна  9  мкс  [3]. 

Системы  серии  ІВМ  Віие  Сепе  являются  классическими  представителями  суперкомпьютеров, 
использующих  топологию  многомерный  тор  для  объединения  вычислительных  узлов.  В  первых 
двух  поколениях  этих  систем  —  Віие  Оене/Б  (2004)  и  Віие  Оепе/Р  (2007)  —  использовалась  топо¬ 
логия  ЗБ-тор,  дополненная  рядом  специализированных  сетей  для  синхронизации  и  коллективных 
операций;  в  Віие  Сепе/(5  (2012)  реализована  топология  5Б-тор  без  дополнительных  сетей.  Про¬ 
пускная  способность  линка  в  Віие  Сепе/(5  составляет  2  ГБ/с,  что,  с  одной  стороны,  существенно 
больше  0,425  ГБ/с,  предоставляемых  в  предыдущем  поколении,  но  с  другой  —  на  порядок  меньше 
пропускной  способности,  предоставляемой,  например,  в  сетях  ІпйшВапсі  или  Сгау  Сетіні. 

Сеть  Тоіи  (от  Тогш  Ризіоп),  которая  используется  в  японском  суперкомпьютере  К  Сотриіег, 
имеет  топологию  многомерный  тор.  Узел  сети  Тоіи  имеет  10  линков  с  пропускной  способностью  в 
40  Гбит/с  каждый. 

Ряд  отечественных  организаций  также  ведёт  разработку  коммуникационных  сетей  для  исполь¬ 
зования  в  суперкомпьютерах,  в  том  числе  РФЯЦ  ВНИИЭФ,  Институт  программных  систем  РАН 
и  РСК  «СКИФ»,  ИПМ  РАН  и  НИИ  «Квант»  (сеть  «МВС-Экспресс»), 
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2.  Разработка  высокоскоростной  сети  «Ангара»:  ключевые  во¬ 
просы 

Высокоскоростная  коммуникационная  сеть  «Ангара»,  разрабатываемая  в  ОАО  «НИЦЭВТ», 
имеет  топологию  4Б-тор.  Основной  целью  при  разработке  сети  является  создание  отечественной 
«заказной»  сети,  сравнимой  с  мировыми  аналогами,  которая  может  использоваться  в  суперкомпью¬ 
терах  вплоть  до  транспетафлопсного  уровня  производительности.  СБИС  ЕС8430  (рис.  1)  является 
основой  первого  поколения  маршрутизаторов  сети  «Ангара». 


Рисунок  1.  СБИС  «Ангара»  (ЕС8430) 

Началом  разработки  сети  «Ангара»  стала  проведённая  в  2006  году  совокупность  работ  по  имита¬ 
ционному  моделированию  различных  вариантов  сети  и  изучению  основных  решений  по  топологии, 
архитектуре  маршрутизатора,  алгоритмам  маршрутизации  и  арбитражу.  Изначально  помимо  то¬ 
роидальной  топологии  рассматривались  сети  Кэли  и  Іаі  (лее.  Четырехмерный  тор  был  выбран  в 
силу  более  простой  маршрутизации,  хорошей  масштабируемости,  высокой  связности  по  сравнению 
с  торами  меньшей  размерности.  Моделирование  сети  позволило  изучить  влияние  различных  па¬ 
раметров  архитектуры  сети  на  основные  характеристики  производительности,  понять  некоторые 
закономерности  для  трафика  задач  с  интенсивным  нерегулярным  доступом  к  памяти.  В  результате 
были  подобраны  различные  количественные  характеристики  будущего  маршрутизатора,  такие  как 
оптимальные  размеры  буферов  и  число  виртуальных  каналов;  были  проанализированы  потенци¬ 
альные  узкие  места.  При  разработке  принципов  работы  сети  в  качестве  руководства  использова¬ 
лись  [4]  и  [5],  некоторые  идеи  были  также  в  том  или  ином  виде  взяты  из  описаний  архитектур  ІВМ 
Віие  Сепе  и  Сгау  8еа8іаг. 

В  2007  году  начались  работы  по  макетированию  сети  с  помощью  маршрутизаторов  на  базе 
ПЛИС  (ЕРОА)  [2].  В  2008  году  появились  первые  полнофункциональные  прототипы  маршрути¬ 
затора  (М2)  на  базе  ПЛИС  Хіііпх  Ѵіг1ех4,  с  использованием  которых  был  собран  макет  сети  из 
шести  узлов,  соединенных  в  тор  3x2.  Данный  макет  использовался  для  отладки  базовой  функ¬ 
циональности  маршрутизатора,  отработки  отказоустойчивой  передачи  данных.  Параллельно  были 
написаны  и  отлажены  начальные  варианты  драйвера  и  библиотеки  нижнего  уровня,  портирована 
библиотека  Сгау  8Ътет  и  обеспечена  поддержка  МРІ  [2].  В  сентябре  2010  года  был  запущен  макет 
с  прототипами  маршрутизатора  третьего  поколения  (М3),  состоящий  из  девяти  узлов,  соединенных 
в  двухмерный  тор  3x3.  В  2012  году  был  создан  двухузловой  макет  для  отладки  высокоскоростных 
каналов  передачи  данных  с  пропускной  способностью  12х  6,25  Гбит/с.  В  2013  году  появилось  пер- 
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вое  поколение  маршрутизаторов  сети  «Ангара»  на  базе  СБИС  (рис.  2,  рис.  3).  В  настоящий  момент 
продолжается  наладка  и  тестирование  этих  маршрутизаторов. 


Рисунок  2.  Сетевой  адаптера  «Ангара»  на  базе  СБИС  ЕС8430 

Сравнительные  характеристики  сети  «Ангара»  с  зарубежными  решениями  приведены  в  табли¬ 
це  1. 


Таблица  1:  Сравнительные  характеристики  сети  «Ангара»  с  зарубежными  решениями 


Характеристика 

М3 

(ПЛИС) 

Ангара 

(СБИС) 

ІпйпіВапсІ 
РБК  4х 

ІВМ 

Віие  Сепе/(3 

Сгау  ХК7 

Топология  сети 

2Б-тор 

4Б-тор 

!аі  Ігее 

5Б-тор 

ЗБ-тор 

ПС  с  процессором, 

ГБ /с 

2 

8 

8 

~20 

9,6 

ПС  линка,  ГБ /с 

0,625 

7,5 

6,8 

2 

9,375 

Агрегатная  ПС  линков,  ГБ/с 

5 

120 

— 

40 

186 

Задержка  между 
узлами,  мкс 

соседними 

2,5 

1,0 

1,0 

<  1,0 

1,4 

В  ходе  работы  решались  вопросы  разработки  методов  надёжной  передачи  пакетов,  маршру¬ 
тизации  и  арбитража.  На  сетевом  уровне  необходимо  было  гарантировать,  что  все  пакеты  будут 
доставлены  верным  адресатам,  никакой  пакет  не  потеряется  и  не  размножится,  а  в  сети  в  резуль¬ 
тате  работы  многих  узлов  не  возникнет  тупиковых  ситуаций  (например,  взаимных  блокировок  — 
беасПоск) .  Для  гарантии  надёжной  передачи  по  каналу  связи  был  разработан  протокол  канального 
уровня,  в  рамках  которого  происходила  нумерация  пакетов  и  подсчёт  для  каждого  контрольных 
сумм.  Для  предотвращения  взаимных  блокировок  была  выбрана  комбинация  двух  методов:  пра¬ 
вило  порядка  направления  и  «правило  пузырька»  (ЪиЪЫе-шІе)  [5].  Отдельно  потребовалось  ввести 
дополнительный  виртуальный  канал  для  ответов  на  чтения,  чтобы  предотвратить  возникновение 
логических  взаимных  блокировок,  возникающих  из-за  взаимозависимости  запросов  и  ответов  на 
чтения. 

Для  балансировки  нагрузки  была  добавлена  адаптивная  маршрутизация,  для  поддержки  эф¬ 
фективной  работы  с  сетевым  адаптером  многоядерных  процессоров  были  введены  несколько  ин- 
жекционных  конвейеров. 

Взаимодействие  вычислительного  узла,  т.  е.  кода,  исполняемого  на  центральном  процессоре,  с 
маршрутизатором  осуществляется  путем  записи  данных  по  адресам  памяти,  которые  отображе¬ 
ны  на  адреса  ресурсных  регионов  маршрутизатора  (тетогу-тарреб  іприі/оиіриі).  Это  позволяет 
приложению  взаимодействовать  с  маршрутизатором  без  участия  ядра  ОС,  что  снижает  накладные 
расходы  при  отправке  пакетов,  поскольку  переключение  в  контекст  ядра  и  обратно  занимает  су¬ 
щественное  время,  в  сравнении  с  временем  отправки  пакета.  Для  увеличения  производительности 
было  принято  решение  использовать  аппаратно  поддерживаемый  механизм  \ѵгііе-соіпЪіпітщ.  Ос¬ 
новная  идея  его  заключается  в  том,  чтобы  временно  кэшировать  выданные  процессором  записи 
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во  временном  буфере  (\ѵгііе  сотЬініп§  Ъийег),  чтобы  выдать  их  несколько  позже,  вместе  с  после¬ 
дующими  записями,  снижая  тем  самым  накладные  расходы  на  выполнение  отдельных  операций. 
Поскольку  запись  в  инжекционные  буферы  выполняется  последовательно,  \ѵгі!е  соіпЪіпігщ  работает 
наиболее  эффективным  образом,  что  позволяет  значительно  повысить  (до  5 — 20  раз)  темп  работы 
с  устройством. 

Так  как  помимо  передач  точка-точка  значительную  долю  коммуникаций  занимают  коллектив¬ 
ные  операции  (например,  один  узел  рассылает  данные  группе  узлов),  потребовалась  оптимизация 
выполнения  таких  коллективных  операций,  что  позволило  существенно  повысить  производитель¬ 
ность  сети  на  многих  задачах.  Коллективные  операции  реализуются  на  базе  основной  сети  с  то¬ 
пологией  многомерный  тор,  при  этом  используются  отдельные  виртуальные  каналы,  образующие 
виртуальную  подсеть  с  топологией  дерево  [6].  В  дереве  задаётся  корень,  относительно  которого 
вводятся  два  возможных  направления  движения  по  дереву:  от  корня  и  к  корню.  Каждому  из  на¬ 
правлений  соответствует  свой  виртуальный  канал.  Узлы,  из  которых  движение  от  корня  больше 
невозможно,  называются  листьями.  Дерево  строится  с  учётом  порядка  измерений  (для  предот¬ 
вращения  дедлоков).  Для  построения  дерева  могут  использоваться  вспомогательные  транзитные 
узлы  —  они  логически  не  принадлежат  дереву,  но  нужны  для  его  связности  (в  данных  узлах  про¬ 
цессоры  не  посылают  и  не  получают  данных). 

Для  достижения  большей  эффективности  было  принято  решение  исключить  из  рассмотрения 
случай,  когда  две  разные  задачи  используют  пересекающиеся  группы  узлов,  таким  образом  каж¬ 
дый  узел  может  относиться  только  к  одной  вычислительной  задаче.  Это  позволило  исключить 
накладные  расходы,  связанные  с  использованием  виртуальной  памяти,  избежать  интерференции 
задач,  упростить  архитектуру  маршрутизатора  за  счет  отсутствия  необходимости  в  полноценном 
ММІІ  и  избежать  всех  связанных  с  его  работой  коммуникационных  задержек,  упростить  модель 
безопасности  сети,  исключив  из  нее  обеспечение  безопасности  процессов  различных  задач  на  одном 
узле.  Принятое  решение  не  повлияло  на  функциональность  сети,  поскольку  она  предназначена  в 
первую  очередь  для  задач  большого  размера.  Аналогичное  решение  было  принято  в  ІВМ  Віие  Оепе, 
с  той  разницей,  что  там  ограничение  на  единственность  задачи  вводится  для  раздела. 

Основным  режимом  программирования  для  сети  «Ангара»  является  совместное  использование 
МРІ,  ОрепМР  и  8Ьтет.  Также  поддерживаются  СА8ХеІ,  ЦРС,  АКМСІ,  СІіагт++, 

Выпуск  СБИС  потребовал  решения  большого  числа  новых  задач.  Хотя  логика  маршрутизатора 
к  тому  моменту  была  вполне  отлажена  и  все  базовые  операции  корректно  работали,  переход  от 
ПЛИС  к  СБИС  потребовал  значительных  усилий  всего  коллектива. 

На  начальном  этапе  подготовки  к  выпуску  СБИС  был  проведён  анализ  существующих  техноло¬ 
гических  возможностей.  В  первую  очередь  необходимо  было  выбрать  технологическую  норму.  Вы¬ 
бор  производился  с  точки  зрения  возможностей  доступных  на  той  или  иной  технологической  норме 
различных  ІР-блоков  (ТійеІІесБіаІ  Ргорегіу  Віоскв)  —  готовых  блоков,  реализующих  определённую 
функциональность.  Применительно  к  сети  «Ангара»,  рассматривались  ІР-блоки  для  линков,  ин¬ 
терфейсов  РСІ  Ехргевв,  ИИК  2/3  8ИКАМ.  Также  учитывался  требуемый  объём  затрат  на  реали¬ 
зацию  (дизайн  топологии  и  изготовление)  и  перспективы  изготовления  СБИС  на  отечественных 
фабриках.  Как  результат,  была  выбрана  технологическая  норма  65  нм,  которая,  с  одной  стороны, 
была  достаточно  проверенной  и  распространённой,  с  другой  —  ІР-блоки,  доступные  для  данной 
технологической  нормы,  позволяли  достигнуть  исходной  цели  создания  конкурентоспособной  по 
производительности  сети. 

Немаловажным  являлся  вопрос  проработки  приоритетного  варианта  исполнения.  Изначально 
предполагалось  в  качестве  хост-интерфейса  сети  использовать  НурегТгапкрогі,  как  имеющий  более 
низкую  коммуникационную  задержку  в  сравнении  с  РСІ  Ехргевв  и  поддерживаемый  процессорами 
производства  компании  АМИ.  Однако  отказ  АМИ  от  поддержки  не  кэш- когерентного  интерфей¬ 
са  НурегТгапврогІ  и  неясность  дальнейших  перспектив  данного  интерфейса,  а  также  внедрение 
РСІ  Ехргевв  гооі  сотріех  как  составной  части  кристалла  в  процессорах  компании  Іпіеі  начиная  с 
архитектуры  8апс1у  ВгісІ§е,  повлияло  на  данный  выбор,  склонив  его  в  сторону  адаптера  в  форм¬ 
факторе  платы  расширения  РСІ  Ехргевв,  как  более  универсального  и  сравнимого  по  эффективности 
решения.  Вторым  приоритетный  форм-фактором  являлась  мезонинная  плата  для  вычислительной 
платформы  «Ангара». 

Проработка  форм-фактора  карты  расширения  РСІ  Ехргевв  привела  к  вопросу  выбора  разъ¬ 
ёмов  и  кабелей.  В  результате  рыночных  исследований  были  выбраны  разъёмы  и  кабели,  разрабо¬ 
танные  Гейдельбергским  университетом  и  производимые  компанией  8атІес  [7],  как  обладающие 
уникальной  плотностью  упаковки  (по  шесть  12-лейновых  разъёмов  на  одной  планке  расширения), 
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недоступной  в  иных  решениях  (рис.  3). 


Рисунок  3.  Сетевой  адаптер  «Ангара»  на  базе  СБИС  ЕС8430,  разъёмы  8АМТЕС 

В  целях  достижения  целевого  уровня  производительности  в  виду  предполагавшихся  ограни¬ 
чений  по  частоте  работы  СБИС  при  использовании  выбранного  технологического  процесса  была 
удвоена  ширина  всех  внутренних  шин,  что  позволило  достичь  требуемой  производительности  при 
вдвое  меньшей  частоте  (500  МГц  при  ширине  128  бит  вместо  1  ГГц  при  ширине  64  бита).  Данное 
фундаментальное  изменение  повлекло,  в  свою  очередь,  ряд  изменений  в  архитектуре  маршрути¬ 
затора:  были  переработаны  форматы  пакетов  с  учётом  увеличившейся  гранулярности  флитов  (16 
байт  вместо  8);  был  произведён  перерасчёт  необходимых  размеров  буферов.  Одновременно  с  этим 
была  добавлена  поддержка  адресации  больших  объёмов  памяти:  до  1  ТБ  вместо  4  ГБ. 

Однако  основной  объём  работ  был  выполнен  в  рамках  подготовки  КТЬ-дизайна  маршрутиза¬ 
тора  к  исполнению  в  СБИС.  Была  добавлена  полноценная  поддержка  исключительных  ситуаций, 
счётчиков  производительности,  взаимодействия  с  сервисным  процессором,  поддержка  функций  от¬ 
ладки  и  конфигурирования. 

Механизм  исключительных  ситуаций  позволяет  путём  посылки  М8І1  оповещать  хост  о  возник¬ 
новении  той  или  иной  внештатной  ситуации.  Необходимость  генерации  М8І  при  возникновении  ис¬ 
ключительной  ситуации  контролируется  маской,  задаваемой  в  адаптере  сети  «Ангара»  посредством 
модификации  его  регистров.  Также  доступен  механизм  считывания  дополнительной  информации 
об  исключительных  ситуациях  через  интерфейс  регистров  адаптера,  при  этом  для  ряда  ситуаций, 
считающихся  редкими,  доступна  информация  только  о  последней  исключительной  ситуации,  для 
остальных  же  по  возможности  используются  аккумулирующие  счётчики. 

Добавление  счётчиков  производительности  было  сделано  в  целях  предоставления  возможно¬ 
стей  выявления  узких  мест,  профилирования  и  оптимизации  работы  маршрутизатора  программ¬ 
ным  обеспечением,  так  как  в  СБИС,  в  отличие  от  ПЛИС,  установка  подобных  счётчиков  путём 
смены  прошивки  по  очевидным  причинам  невозможна.  Всего  в  различные  блоки  маршрутизато¬ 
ра  добавлено  несколько  сотен  счётчиков,  некоторые  из  которых  предназначены  для  учёта  только 
программно  маркированного  трафика  (в  дополнение  к  счётчикам,  учитывающим  весь  проходящий 
трафик) . 

Была  также  добавлена  возможность  считывания  конфигурации  отдельных  внутренних  блоков 
и  ІР-блоков  из  ПазЬ-памяти.  Такая  возможность  не  требовалась  в  ПЛИС,  так  как  подобные  вопро¬ 
сы  решались  перегенерацией  прошивки  ПЛИС,  для  СБИС  же  был  проведён  анализ  по  выявлению 
параметров  конфигурации,  которые  необходимо  настраивать  на  начальном  этапе,  и  был  добавлен 
интерфейс  для  их  конфигурации.  При  невозможности  настройки  посредством  ЕІаяЬ  для  конфи¬ 
гурационных  параметров  выбраны  значений  по  умолчанию,  некоторые  из  которых  управляются 
через  внешние  выводы  кристалла. 

На  этапе  согласования  контракта  с  подрядчиком  производился  подбор  конкретных  ІР-блоков. 
При  этом,  помимо  доступности  того  или  иного  ІР-блока,  необходимо  было  учесть  доступность 
различных  ІР-блоков  для  выбранной  толщины  диэлектрика,  измеряемой  в  напряжении  пробоя, 
что  не  учитывалось  при  анализе  на  начальном  этапе.  При  выборе  между  поставщиками  некоторых 
ІР-блоков  принималось  в  расчёт  наличие  опыта  у  подрядчика  по  интеграции  данного  ІР-блока. 

1Ме88а§е  8і§па11іп§  Іпіеггарі,  вид  транзакции  РСІ  Ехргезз,  возбуждающий  прерывание  на  хост-системе. 
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Из-за  увеличения  объёма  и  количества  элементов  8КАМ  в  СБИС  по  сравнению  с  ПЛИС  при¬ 
мерно  в  10  раз,  возникла  острая  необходимость  добавления  защиты  памяти  —  ЕСС  для  больших 
элементов  и  битов  чётности  для  маленьких.  В  процессе  подбора  возможного  поставщика  ЯНАМ 
было  обнаружено,  что  в  случае  использования  ЕСС  для  защиты  памятей  существенная  часть  эк¬ 
земпляров  не  укладывалась  во  временные  ограничения  в  связи  с  тем,  что  на  вычисление  ЕСС 
требовалось  существенное  время.  Как  следствие,  это  привело  к  необходимости  внесения  ряда  изме¬ 
нений  в  дизайн  —  расслоения  (Ъапкііщ)  экземпляров  8КАМ  и  ослабления  временных  ограничений 
(добавления  многотактовых  врменных  ограничений  —  пшіі  ісусіе)  в  тех  местах,  где  этого  было  кри¬ 
тично,  например,  в  ЕІЕО-буферах. 

Одной  из  важных  составляющих  дизайна  СБИС  является  БЕТ  —  Ве8Іщі  Гог  ТеаіаЪіІііу  —  набор 
техник,  позволяющих  провести  тестирование  работоспособности  чипа  с  точки  зрения  отсутствия 
проблем,  возникающих  на  этапе  его  изготовления:  замкнувших  или,  наоборот,  разомкнутых  сигна¬ 
лов,  проблем  с  чтением/записью  регистров,  экземпляров  8КАМ,  и  так  далее.  Работы  по  внедрению 
структур  БЕТ  выполнялись  на  стороне  контрагента  по  подготовке  дизайна  СБИС  к  выпуску.  В 
рамках  данного  дизайна  это  привело  к  двум  дополнительным  работам.  Первая  задача  являлась  до¬ 
статочно  рядовой  —  необходимо  было  выполнить  подготовку  дизайна  к  внедрению  структур  БЕТ. 
Вторая  же  заключалась  в  необходимости  интеграции  разработанного  механизма  отладки  с  ин¬ 
фраструктурой  БЕТ,  что  потребовало  взаимодействие  команды  разработчиков  ОАО  «НИЦЭВТ» 
и  группы  БЕТ  контрагента  —  написание  варианта  спецификации  данного  механизма  для  предо¬ 
ставления  его  группе  БЕТ,  проработка  изменений  в  процессе  внедрения  структур  БЕТ  и  самих 
структурах  БЕТ  в  целях  возможности  сосуществования  этих  двух  механизмов  (механизм  отлад¬ 
ки  во  многом  использовал  те  же  структуры,  что  внедрял  механизм  БЕТ,  но  использование  этих 
структур  в  рамках  БЕТ  в  так  называемом  Ішісііопаі  тосіе,  штатном  режиме  работы  СБИС  после 
прохождения  начального  тестирования,  не  предполагалось,  в  связи  с  чем  в  схематике  БЕТ,  в  ос¬ 
новном  в  управляющей  части,  изначально  имелся  ряд  решений,  делавших  подобное  использование 
невозможным) . 

Одним  из  существенных  отличий  дизайна  для  СБИС  является  необходимость  проработки  дере¬ 
ва  тактирования  (сіоск  Нее),  в  то  время  как  в  случае  ПЛИС  оно  уже  имеется  как  часть  кристалла 
ПЛИС.  Помимо  этого,  необходимо  было  разработать  схем}'  тактирования,  которая,  с  одной  сторо¬ 
ны,  учитовала  специфику  тактирования  отдельных  ІР-блоков,  с  другой  —  была  достаточно  гибкой 
и  управляемой  (разные  варианты  получения  базового  тактового  сигнала,  используемого  логикой 
маршрутизатора  и  контроллером  РСІ  Ехргеза),  с  третьей  —  учитывала  требования,  предъявляемые 
БЕТ  и  позволяла  реализовать  возможности  механизмов  отладки.  Не  всё  из  перечисленного  уда¬ 
лось  успешно  реализовать;  в  частности,  пришлось  пожертвовать  одной  из  планировавшихся  техник 
отладки  —  мгновенной  (в  течение  одного  такта  после  срабатывания  триггера)  приостановкой  такти¬ 
рования  логики  маршрутизатора:  дерево  тактирования  оказалось  настолько  большим,  что  между 
моментом  генерации  тактового  импульса  и  его  дохождением  до  тактируемой  им  логикой  проходило 
несколько  тактов;  большим,  в  свою  очередь,  оно  оказалось  из-за  углового  расположения  тактового 
генератора,  которое,  в  свою  очередь,  было  обусловлено  организацией  обеспечения  питания. 

Отдельно  стоит  упомянуть  про  процесс  разводки  подложки  (зиЬзІгаІе)  СБИС.  Выбор  платы 
расширения  РСІ  Ехрге88  в  качестве  одного  из  основных  вариантов  исполнения  накладывает  огра¬ 
ничения  на  количество  слоёв  печатной  платы  вследствие  технологических  возможностей  произ¬ 
водства  ОАО  «НИЦЭВТ».  В  целях  минимизации  числа  требуемых  слоёв  для  вывода  контактов  со 
СБИС  к  расположению  выходных  контактов  на  подложке  предъявлялся  ряд  определённых  тре¬ 
бований,  в  первую  очередь,  касающихся  расположения  выводов  дифференциальных  пар  линков  и 
РСІ  Ехргезв  (их  порядка  и  взаимного  расположения),  что,  в  свою  очередь,  породило  сложности 
в  процессе  разводки  подложки,  так  как  максимально  допустимое  количество  слоёв  подложки  бы¬ 
ло,  в  свою  очередь,  обусловлено  подписанным  контрактом;  помимо  этого  были  чисто  технические 
трудности  с  нахождением  пространства  для  размещения  переходных  отверстий. 

Много  нетривиальных  задач,  связанных  с  подготовкой  СБИС,  встало  перед  группой  модели¬ 
рования  и  верификации  ОАО  «НИЦЭВТ».  Появление  дерева  тактирования  повлекло  за  собой 
необходимость  моделирования  петлиста  (вместо  КТІ.) .  причём  с  учётом  задержек  (пеііізі  1ітіп§ 
мнтіайоп ).  Самое  дерево  тактирования,  привнося  с  собой  большое  количество  буферов  задержки, 
существенно  увеличивало  объём  модели.  Помимо  этого,  необходимость  включать  большое  количе¬ 
ство  аналоговых  моделей  (только  ЗегВез’ов  линков  и  РСІ  Ехргеав  суммарно  насчитывается  112  эк¬ 
земпляров;  интерфейс  ВВП  8ВКАМ  имеет  сравнимый  объём)  также  весьма  существенно  сказалось 
на  скорости  моделирования  и  объёмах  требуемой  для  данного  процесса  памяти.  Был  ряд  проблем 
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и  с  самими  моделями  ІР-блоков  —  в  процессе  их  использования  иногда  приходилось  сталкиваться  с 
ошибками  в  моделях  (особенно  тяжело  диагностируемыми  были  проблемы,  приводившие  к  зацик¬ 
ливанию  процесса  моделирования);  некоторые  модели  не  могли  быть  проаннотированы  (что  также 
вызвало  дополнительные  сложности  при  использовании  их  в  моделировании  с  учётом  временных 
задержек).  Одной  из  важных  задач,  стоявших  перед  группой  моделирования  и  верификации,  явля¬ 
лась  необходимость  моделирования  взаимодействия  нескольких  маршрутизаторов,  объединённых 
в  сеть.  В  связи  с  существенным  увеличением  объёма  моделей,  моделирование  не  могло,  как  рань¬ 
ше,  выполняться  в  рамках  одного  узла  (процесс  моделирования  занимал  слишком  много  времени 
и  требовал  большое  количество  оперативной  памяти,  существенно  сужая  круг  доступных  вычис¬ 
лительных  ресурсов  для  запуска  моделирования  на  них) ,  в  связи  с  этим  тестовое  окружение  было 
доработано:  была  добавлена  поддержка  взаимодействия  процессов  моделей  по  МРІ,  что  позволило 
осуществлять  запуски  на  многоузловых  вычислительных  системах  и  существенно  сократить  время, 
требуемое  на  получения  результатов  данного  вида  моделирования.  Отдельно  можно  отметить,  что 
интенсивное  использование  моделирования  в  процессе  подготовки  СБИС  позволило  выявить  неко¬ 
торые  потенциальные  проблемы,  которые  не  были  выявлены  статическим  временным  анализом 
(ні аі  іс  I  ііиііщ  аиаіувіз,  8ТА). 

Помимо  подготовки  дизайна  на  уровне  ВТТ.  для  её  передачи  контрагенту,  был  проведён  су¬ 
щественный  объём  работ,  касающийся  процесса  синтеза  нетлиста  пригодного  для  использования 
контрагентом  в  процессе  разводки  топологии  и  внедрения  БЕТ.  В  частности,  были  согласованы  осо¬ 
бенности  именования  отдельных  элементов  и  сигналов,  требуемая  иерархия  блоков  для  удобства 
работы  контрагента  с  ними  (КТЪ-вариант  дизайна  имеет  довольно  глубокую  иерархию,  которая 
излишне  ограничивает  и  затрудняет  процесс  подготовки  топологии,  в  связи  с  чем  потребовалось 
выполнять  упрощение  иерархии  в  процессе  синтеза;  свои  требования  были  к  предоставляемом}' 
нетлисту  у  группы  БЕТ). 

Кроме  технических  сложностей,  в  проекте  такого  масштаба  были  и  чисто  организационные, 
связанные  с  естественной  необходимостью  тесного  взаимодействия  разработчиков  из  нескольких 
крупных  компаний  из  разных  стран  мира,  между  которыми  имелись  языковые,  понятийные,  юри¬ 
дические,  субординационные  и  другие  подобного  рода  барьеры.  При  взаимодействии  с  крупными 
международными  контрагентами  оказалось  крайне  трудно  бороться  с  тенденцией  к  сведению  всех 
вопросов  лишь  к  стандартным  и  наиболее  легко  реализуемым  решениям,  слабо  учитывающим  спе¬ 
цифику  конкретного  проекта. 


Заключение 

Кристалл  СБИС  ЕС8430  изготовлен  на  фабрике  Т8МС  с  использованием  технологических  норм 
65  нм,  имеет  размеры  13,0x10,5  мм,  содержит  180  миллионов  транзисторов;  корпусировка  ГСВСА 
(Шр-сЫр  Ъаіі  §гИ  аггау),  1521  вывод  в  виде  массива  39x39  контактов  с  шагом  1  мм,  подложка 
имеет  размеры  40x40  мм.  Плата  сетевого  адаптера  изготавливается  на  собственном  производстве 
в  ОАО  «НИЦЭВТ».  СБИС  работает  на  частоте  250/500  МГц  (в  зависимости  от  используемой 
скорости  РСІ  Ехргезз)  и  потребляет  36  Вт  энергии.  Плата  маршрутизатора  позволяет  подключить 
до  6  линков  (до  8  с  платой  расширения)  пропускной  способностью  75  Гбит  с  каждый  (кодирование 
8М0Ъ).  Взаимодействие  адаптера  с  вычислительным  узлом  осуществляется  через  РСІ  Ехрге88  2.0 
х16  (80  Гбит/с,  кодирование  8Ы0Ъ). 

Продвижение  сети  «Ангара»  на  рынок  планируется  осуществлять  в  двух  вариантах:  как  отдель¬ 
ную  коммерческую  сеть  в  виде  плат  РСІ  Ехрге88  для  кластерных  систем  с  коммерчески  доступными 
серверными  узлами,  и  как  интегрированный  компонент  в  составе  разрабатываемой  в  ОАО  «НИ¬ 
ЦЭВТ»  в  рамках  проекта  «Ангара»  вычислительной  платформы,  что  позволит  объединить  до  32 
тысяч  узлов  в  составе  суперкомпьютера  транспетафлопсного  уровня  производительности. 

Параллельно  с  выпуском  СБИС  первого  поколения  продолжается  дальнейшая  разработка  и 
оптимизация  архитектуры  сети  «Ангара»,  готовится  макет  М  1  (на  базе  ПЛИС  Ѵігіех  7).  Опыт 
эксплуатации  предыдущих  макетов  и  кластера  с  маршрутизаторами  на  базе  СБИС  является  ос¬ 
новой  для  разработки  принципов  работы  сети  «Ангара»  второго  поколения.  Основные  доработки 
будут  направлены  на  поддержку  большего  числа  топологий,  повышение  безопасности  выполнения 
прикладных  задач  на  узлах,  добавление  аппаратной  поддержки  атомарных  операций  с  возвратом 
значений,  поддержки  технологии  СРИ  Вігесі,  оптимизацию  ГШМА-операций  и  поддержки  боль¬ 
шого  числа  тредов/процессов  на  узле. 
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